HTMLからテキストのみをテキストに変換したい
投稿者 eigyo  (社会人)
投稿日時
2019/2/3 19:46:56
どうも、WebBrowserコントロールを使って、一旦表示させれば出来そうでしたので
試してみましたが、うまくいきません
WebBrowser1.DocumentText = body
bodyText = WebBrowser1.Document.Body.InnerText
オブジェクト参照が、オブジェクトに設定されていませんと エラーになります
bodyを代入したあと、ブレークして、続行すると、表示されます
代入処理が完了しないで、次の処理が実行されているようになります
んんん・・・?
試してみましたが、うまくいきません
WebBrowser1.DocumentText = body
bodyText = WebBrowser1.Document.Body.InnerText
オブジェクト参照が、オブジェクトに設定されていませんと エラーになります
bodyを代入したあと、ブレークして、続行すると、表示されます
代入処理が完了しないで、次の処理が実行されているようになります
んんん・・・?
投稿者 魔界の仮面弁士  (社会人)
投稿日時
2019/2/4 11:18:21
> NTidy.dll
どの NTidy でしょうか。
マネージ実装だったりラッパーだったりと、HTML Tidy 系の実装は複数あるので。
https://www.nuget.org/packages?q=Tidy
> VC用のライブラリが別途必要そうだったので、
どのバージョンの ランタイム ライブラリでしょうか?
7.1 ということは、Visual C++ 2003 世代の古いライブラリをお使いなのでしょうか?
たとえばバージョン 14 向けなら、Visual C++ 2015 再頒布パッケージが必要です。
https://www.microsoft.com/ja-jp/download/details.aspx?id=48145
http://freewing.starfree.jp/software/microsoft_visual_cpp_runtime_list/
> bodyを代入したあと、ブレークして、続行すると、表示されます
WebBrowser はメッセージループを回さないと処理されません。
Navigate して End Sub を通過した後に、DocumentCompleted イベントが発生しますので、
そのイベントで Document プロパティを利用するようにしてみてください。
どの NTidy でしょうか。
マネージ実装だったりラッパーだったりと、HTML Tidy 系の実装は複数あるので。
https://www.nuget.org/packages?q=Tidy
> VC用のライブラリが別途必要そうだったので、
どのバージョンの ランタイム ライブラリでしょうか?
7.1 ということは、Visual C++ 2003 世代の古いライブラリをお使いなのでしょうか?
たとえばバージョン 14 向けなら、Visual C++ 2015 再頒布パッケージが必要です。
https://www.microsoft.com/ja-jp/download/details.aspx?id=48145
http://freewing.starfree.jp/software/microsoft_visual_cpp_runtime_list/
> bodyを代入したあと、ブレークして、続行すると、表示されます
WebBrowser はメッセージループを回さないと処理されません。
Navigate して End Sub を通過した後に、DocumentCompleted イベントが発生しますので、
そのイベントで Document プロパティを利用するようにしてみてください。
投稿者 eigyou  (社会人)
投稿日時
2019/2/4 18:54:10
魔界の仮面弁士 様
お世話になります
別スレッドにしても 読み込みの終わり検知できないし どうすんだこれみたいに悩んでいましたが
DocumentCompleted イベント にて速攻解決しました
ありがとうございました!!
ただ、メール受信で、utf-8 などのエンコードは、ダメみたいで はああ です
お世話になります
別スレッドにしても 読み込みの終わり検知できないし どうすんだこれみたいに悩んでいましたが
DocumentCompleted イベント にて速攻解決しました
ありがとうございました!!
ただ、メール受信で、utf-8 などのエンコードは、ダメみたいで はああ です
環境はは、Windows7 64bit VB2010
ライブラリを使って、メールを受信するプログラムを作っています
htmlで記載された本文をテキストに変換しようとしているのですがうまく
いきません
htmlからテキストへの抽出は、ググって NTidy.dll のライブラリがあった
ので、使ってみたのですがエラーになります
NTidy.dll またはその依存関係の1つが読み込めません 有効なwin32アプリケー
ションではありません
とのたまいます
VC用のライブラリが別途必要そうだったので、msvcp71.dll msvcr71.dll を実行
ファイルと同じフォルダに配置してみましたが、同じでした
何か簡単で、いい方法はないでしょうか?
よろしくお願いします